文章总结的两点还挺有意思的
- 用基于连接的方法来做对话是因为有大规模的语料
- 之前几年的对话系统研究都集中在把所有的组件都替换一遍。
工作中用了
- wikipedia summaries
- NELL knowledge base
related work中列觉了很多利用外部知识的对话系统的工作
这个工作中把context中的非停用词的相关knowledge都抽取出来,然后用Bag-of-words的方式来获得这个知识的表示,这种方法我觉得会导致得到的词向量的表示差不太多。
通过计算外部知识的向量表示方差和偏离程度。wikipedia的分布过于集中,同时变化度比较小,不是一个好的表示。但是实验结果确实反过来的,有点费解。
文章在实验中的停止条件设置成training loss在同一水平下,我觉得这个方案比较合理。